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摘 要 : 为 提高 专利 文本 的 自动 分 类 的 效率 和 准确 度 ， 提 出 一 种 双 通 道 特 征 融 合 WPOS-GRU(word2vec and part of 
Speech gated recurrent unib) 专 利文 本 自动 分 类 方法 。 首 先 获 取 专 利 摘要 文本 ， 并 进行 清洗 和 预 处 理 ; 然后 对 专利 文本 
进行 词 向 量 表示 和 词性 标注 ， 并 将 专利 文本 分 别 映射 为 word2vec 词 向 量 序列 和 POS 词性 序列 ; 最 后 使 用 两 种 特征 
通道 训练 WPOS-GRU 模型 ， 并 对 模型 效果 进行 实验 分 析 。 通 过 对 比 传统 专利 分 类 方法 和 单 通道 专利 分 类 方法 ， 双 
通道 特征 融合 的 WPOS-GRU 专利 分 类 方法 提高 了 分 类 效果 。 本 文 提出 的 方法 节省 了 大 量 的 人 力 成 本 ， 提 高 了 专利 
文本 分 类 的 准确 度 ， 更 能 满足 大 量 专利 文本 分 类 任务 自动 化 高 效率 的 需要 。 
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WPOS-GRU patent classification method based on dual channel feature fusion 
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(1. School of Management, b. Key Laboratory of Process Optimization & Intelligent Decision-Making of Ministry of 
Education, Hefei University of Technology, Hefei 230009, China) 


Abstract: In order to improve the efficiency and accuracy of patent text automatic classification, this paper proposes a 
two-channel feature fusion WPOS-GRU patent text automatic classification method. Firstly, the patent summary text is 
obtained, cleaned and pretreated, then the patent text is represented by word vector and part-of-speech tagging, and the 
patent text is mapped into word 2vec word vector Sequence and POS part-of-speech sequence, respectively. Finally, 
WPOS-GRU model is trained by two feature channels, and the effect of the model is analyzed experimentally. By 
comparing the traditional patent classification method with the single-channel patent classification method, the WPOS-GRU 
patent classification method with two-channel feature fusion improves the classification effect. The method proposed in this 
paper saves a lot of manpower costs, 1mproves the accuracy of patent text classification, and can meet the needs of 
automation and high efficiency of a large number of patent text classification tasks. 
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0 引言 析 和 利用 一 直 被 世界 各 国 所 重视 ， 专 利 的 自动 分 类 ， 对 专利 
及 审核 、 专 利 检索 有 着 非常 重要 的 意义 。 使 用 机 器 学 习 进 行 专 
近年 来 ， 科 技 创 新 越 来 越 引起 人 们 的 重视 ， 而 专利 作为 。 利 分 类 一 直 是 该 问题 的 研究 热点 。 李 生 珍 等 人 中 对 文本 进行 
创新 的 重要 记录 载体 ， 也 呈现 出 爆炸 增长 的 态势 由 。 据 在 专 。 分 词 并 提取 特征 词 , 将 专利 文本 映射 成 特征 向 量 , 并 使 用 BP 
利 申请 领域 , 在 2016 年 的 一 年 时 间 内 , 中 国共 受理 专利 申请 ”神经 网 络 构建 分 类 器 ， 马 芳 等 人 喇 使 用 径 向 基 函 数 神经 网 络 


1 30 万 件 ， 且 呈 逐 年 上 升 趋势 。 如 此 海量 的 专利 数据 ， 通 过 构建 分 类 模型 ， 并 设计 了 专利 自动 分 类 系统 。 相 比 于 普通 文 
人 工分 类 需要 巨大 的 人 力 成 本 , 处 理 效 率 无 法 满足 实际 需要 ， 本， 专利 文本 具有 其 自身 的 殊 性 ， 有 针对 的 构建 分 类 器 ， 更 
专利 的 自动 分 类 方法 研究 的 重要 性 日 渐 突 显 ， 已 成 为 现 阶段 。 能 适应 专利 自动 分 类 的 需要 由 。 慑 脑 等 人 四 认为 专利 文本 有 
一 个 重要 的 研究 热点 问题 。 目 前 ， 专 利 分 类 研究 多 采用 IPC  ” 较 明 显 的 专业 特征 ， 使 用 专业 术语 构建 特征 能 提高 专利 分 类 
分 类 体系 ，IPC 分 类 是 一 种 层次 结构 分 类 体系 ， 包 括 部 、 大 ”的 效果 ， 并 使 用 朴素 贝 叶 斯 、SVM 等 分 类 器 进行 实验 ， 对 比 
类 、 小 类 、 组 等 层次 ， 是 世界 上 使 用 较 多 普遍 认可 的 一 种 分 。 了 机 器 学 习 相关 分 类 器 的 效果 。 基 于 向 量 空间 模型 的 分 类 方 
类 体系 。 目 前 ， 相 关 研 究 者 通过 机 器 学 习 来 处 理 专 利 自动 分 。 法 ， 忽 略 了 词语 间 的 语义 信息 ， 雇 列 法 等 人 [9 认为 用 主题 代 
类 问题 ， 通 过 进行 文本 分 析 ， 提 取 文 本 中 关键 的 特征 词 ， 并 蔡 传 统 的 向 量 空间 模型 ,在 构建 分 类 器 时 考虑 到 了 语义 信息 。 
结合 机 器 学 习 分 类 器 完成 分 类 , 取得 不 错 的 效果 。 最 近 几 年 ， 深度 学 习 近 些 年 的 飞速 发 展 ， 为 自然 语言 处 理 很 多 问题 
深度 学 习 在 自然 语言 处 理 领 域 取 得 了 很 好 的 效果 ， 且 端 到 端 提供 了 新 的 解决 思路 ， 尤 其 在 文本 分 类 问题 上 表现 出 良好 的 
的 处 理 流程 更 能 满足 专利 自动 分 类 的 需要 ， 使 用 深度 学 习 模 ”” 性能。 一些 学 者 通过 自动 编码 机 来 处 理 特征 ， 提 取出 文本 中 
型 实现 专利 的 自动 分 类 是 一 种 较 好 的 解决 思路 。 深层 次 的 信息 贴 ， 受 此 启发 ， 马 双 刚 久 将 自动 编码 机 应 用 在 

专利 自动 分 类 中 ， 并 取得 了 不 错 的 效果 。 目 前 相关 研究 者 对 
1 ”相关 工作 专利 自动 分 类 的 研究 多 集中 在 特征 提取 和 处 理 上 ， 而 端 到 端 
专利 文本 是 科技 创新 的 一 种 重要 表现 形式 ， 对 专利 的 分 。 和 深度 神经 网 络 可 以 摆脱 特征 工程 的 束缚 ， 更 适合 大 量 专利 
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数据 自动 分 类 的 需要 中。 在 深度 学 习 模型 中 ， 首 先 要 进行 词 、 形 容 词 等 类 别 。 该 标注 标准 标注 信息 较为 详细 ， 在 相关 
word2vec 词 向 量 训 练 ， 将 词 映 射 成 一 个 低 维 的 向 量 , 解决 了 ”研究 中 应 用 较 广 。 

传统 词 袋 模型 词 向 量 维度 过 大 的 难题 00， word2vec 向 量 ”2.2 GRU 循环 神经 网 络 模型 
的 训练 过 程 结 合 了 词 的 上 下 文 内 容 ， 包 含 了 词 的 语义 信息 ， GRU 循环 神经 网 络 模型 在 传经 循环 神经 网 络 中 加 入 门 
在 深度 学 习 研 究 中 应 用 较 多 。Kim 等 人 0 使 用 卷 积 神经 网 络 ”的 因素 ， 可 以 保留 更 长 距离 的 记忆 ， 相 比 于 LSTM， 其 减少 
构建 文本 分 类 器 , 提取 文本 深层 次 的 特征 , 不 需要 人 工 干预 ， 了 门 的 数量 ， 并 将 LSTM 隐 层 状态 和 细胞 状态 合并 ,减少 了 
相 比 于 传统 人 工 提 取 特征 的 方法 ， 更 高 效 快捷 ， 在 分 类 效果 ” 宛 余 信息 ， 所 以 其 模型 效果 和 LSTM 相似 ,而 由 于 参数 的 减 
上 也 更 优 于 传统 方法 。 胡 杰 等 人 (2 使 用 卷 积 神经 网 络 进行 特 。 ” 少 , 计算 效率 大 大 提高 。GRU 包括 更 新 门 和 控制 门 ， 是 控制 
征 提 取 ， 并 使 用 随机 森林 构造 分 类 器 对 专利 文本 进行 分 类 ， 信息 选择 性 通过 的 机 制 ， 由 一 个 sigmoid 神经 网 络 层 和 一 个 
通过 对 比 随机 森林 等 方法 ， 该 方法 较 好 的 提升 了 分 类 效果 。 向 量 点 乘 组 成 。 门 元 素 的 值 在 [0,1]， 当 值 为 1 时 表示 信息 完 
一 些 研 究 者 认为 ， 卷 积 神经 网 络 有 着 局 部 联接 的 特点 ， 所 以 ”全 通过 ， 当 值 为 0 时 表示 信息 完全 阻塞 。GRTU 结构 信息 如 图 
在 提取 特征 的 过 程 中 , 会 忽略 文本 的 结构 特征 , 而 LSTM 和 ”2 和 式 (1) 所 示 。 


H 


GRU 等 循环 神经 网 络 模型 是 一 种 序列 模型 , 更 适合 文本 特征 有 
的 提取 03 鸭 。 王 树 恒 等 人 05 使 用 双向 的 LSTM 模型 对 文本 ji 一 ~ 


情感 进行 分 类 , 通过 实验 LSTM 获得 了 比 CNN 更 好 的 分 类 
准确 率 。 李 雪莲 等 人 (9 通过 对 比 实验 分 析 了 LSTM 和 GRU 
模型 结构 和 性 能 ， 并 指出 GRU 模型 继承 了 LSTM 自动 学 
习 的 功能 ， 但 其 结构 更 为 简单 ， 大 大 缩短 了 模型 训练 时 间 ， tanh 
更 适合 大 量 文本 数据 的 研究 应 用 。 深 度 学 习 方 法 应 用 在 与 情 


发 现 、 情 感 分 析 等 方面 取得 了 很 好 的 成 绩 ， 而 鲜 有 研究 者 将 一 

深度 学 习 方法 用 于 专利 自动 分 类 领域 。 本 文 分 析 了 专利 文本 

的 特点 ， 提 取 专 利 摘要 文本 ， 结 合 LSTM 深度 学 习 模型 完成 四 2 GRU 节点 结构 图 

专利 摘要 文本 的 自动 分 类 。 此 外 ， 每 个 词 都 有 不 同 的 词性 ， Fig.2 GRU node structure diagram 

词性 包含 了 一 些 重重 要 的 语义 内 容 b71， 尤 其 在 专利 文本 中 ， 已 (UL 了 KAN 

如 名 词 的 重要 性 一 般 较 高 , 而 word2vec 词 向 量 模型 忽略 了 词 =o(U,N + Wh +b.) 0) 
性 信息 ， 所 以 本 文 在 GRU 的 基础 上 ， 将 文本 的 word2vec 词 CN 

向 量 和 词性 信息 进行 结合 ， 实 现 语义 和 词性 双 通道 建 模 ， 提 en 

出 了 双 通 道 特征 融合 的 WPOS-GRU 专利 摘要 自动 分 类 方法 。 ”其 中 : z 代表 更 新 门 ， 用 来 控制 当前 输入 所 占 的 比重 ，R; 为 


重 置 门 ， 用 来 控制 上 一 步 的 记忆 中 哪些 对 当前 输入 起 作用 。 

2 ”相关 关键 技术 Wi, Wi, Ws; 代表 权重 ,b; b; bs; 代表 偏 置 量 。x 代 表 t 时 刻 的 输入 ， 

2.1 word2vec 词 向 量 训练 和 POS 词性 标注 st 代表 需要 更 新 的 信息 , hi 代表 t 时 间 步 的 隐藏 层 状态 ，o 代 
word2vec 模型 由 Mikolov 等 人 研发 的 词 向 量 表示 工具 ， 表 非 线性 函数 。 


包括 CBOW 模型 和 Skip-gram 模型 ， 本 文 使 用 CBOW 模型 。 基于 双 通 道 特征 融合 的 WPOS-GRU 专利 摘要 


实现 词 向 量 训练 .CBOW 模型 结构 如 图 1 所 示 , 包括 输入 层 、 和 白云 划 刊 | 
映射 层 和 输出 层 。 的 月 有 全 人 全 
本 文 首先 对 文本 数据 进行 预 处 理 , 包括 数据 清洗 、 分 词 、 
四 0 去 停 用 词 等 工作 ， 然 后 对 文本 进行 词 向 量 表示 和 词性 标注 ， 
并 将 词 向 量 和 标注 信息 输入 进 双 通道 GRU 循环 神经 网 络 模 
本 4， 完 成 训练 ， 最 后 使 用 该 模型 对 文本 进行 分 类 测试 。 
SS 3.1 专利 数据 获取 及 数据 预 处 理 
-wm 专利 数据 包括 题目 、 摘 要 、 正 文 、 主 分 类 号 等 文本 项 ， 
a 其 中 摘要 文本 中 包含 了 该 篇 专利 的 核心 内 容 ， 阅 读者 通过 阅 
wdrD) 读 专 利 摘 要 就 可 以 对 该 专利 的 类 别 有 所 把 握 ， 而 阅读 全 文 则 
广 -1 需要 耗费 大 量 时 间 成 本 ， 所 以 本 文 需要 的 获取 专利 的 摘要 文 
本 信息 和 主 分 类 号 。 
图 1 Skipgram 模型 结构 图 对 专利 摘要 文本 进行 数据 清洗 ， 除 去 因 网 络 来 源 产生 的 
Fig.1 Skipgram model structure diagram 噪声 ， 然 后 进行 分 词 和 词性 标注 处 理 ， 词 性 标注 采用 中 科 院 
输入 层 为 一 个 滑动 窗口 ， 将 该 词 上 下 文 的 n 个 词 向 量 输 “计算 所 的 标注 标准 。 对 分 词 和 标注 后 的 结果 进行 向 量 表示 ， 
入 到 模型 , 输出 当前 词 的 向 量 表示 。 因为 其 在 词 向 量 表示 时 ， ”将 词 和 标注 信息 分 别 映射 成 低 维 向 量 。 
考虑 到 词 的 上 下 文 信息 ， 所 以 最 终 的 词 向 量 表示 了 一 定 的 语 。 3.2 专利 文本 分 类 模型 
义 信息 ， 可 以 通过 向 量 距离 计算 来 求 两 个 词 的 相似 度 。 在 专利 摘要 文本 中 ， 相 比 于 其 他 文本 数据 ， 语 言 较为 领 
词性 标注 是 自然 处 理 中 很 重要 的 工作 ， 主 要 包括 基于 规 5 域 化 专业 化 ， 且 其 专业 术语 较 广 ， 传 统 基于 特征 词 的 方法 无 
则 的 方法 、 基 于 统计 的 方法 和 机 器 学 习 方 法 ， 常 被 用 于 机 器 法 对 术语 词 进 行 很 好 的 覆盖 ， 一 旦 有 新 的 术语 词 出 现 ， 特 征 


翻译 、 文 字 识 别 等 领域 ， 为 每 个 词 赋予 其 对 应 的 词性 ， 作 为 。” 向 量 就 要 重新 设计 。 所 以 本 文 提 出 基于 循环 神经 网 络 的 方法 ， 
后 面 语义 分 析 的 基础 工作 。 本 文 使 用 的 词性 标注 标准 为 中 科 其 方法 通用 性 较 强 ， 新 术语 词 往往 是 由 旧 词 组 成 的 短语 ， 通 


院 计 算 所 标注 集 ， 包 括 名 词 、 时 间 词 、 处 所 词 、 方 位 词 、 动 过 旧 词 的 词 向 量 计算 , 可 以 得 出 新 短语 的 word2vec 语义 。 无 
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须 人 工 提 取 特 征 ， 适 用 专利 摘要 文本 特征 词 
征 ， 节 约 了 大 量 的 人 力 成 本 ， 更 适应 大 量 专利 数据 
的 需要 。 本 文 考虑 到 专利 文本 中 ， 不 同 
性 不 同 ， 而 word2vec 词 向 
上 了 融合 词性 信息 的 专利 分 类 模型 
信息 包含 了 


GRU 的 基础 上 ， 


验 。 


3.2.1 双 通 道 融合 特征 WPOS-GRU 模型 


提 蝇 
WPOS-GRU。 其 中 词 怕 
独 输入 模型 ， 也 可 以 作为 word2vec 向 量 的 补充 
文 设计 了 word2vec 单 通道 特征 GRU、POS 单 通道 特征 
和 双 通 道 融合 特征 WPOS-GRU 三 种 模型 结构 ,并 进行 对 


余 本 功 ， 等 : 基于 双 


提取 不 方便 的 特 
自动 分 类 
的 词性 所 代表 的 重要 
量 忽略 了 词性 信息 ， 所 以 本 文 在 


定 的 语义 信息 ， 可 以 单 
内 容 , 所 以 本 
GRU 
比 实 


双 通 道 特征 融合 WPOS-GRU 模型 包括 word2vec 和 POS 


两 个 通道 ， 


其 模型 结构 如 图 3 所 示 。 


多 8 SR 


7 a 


(RU > ... GRU) (GRU > ...—» GRU) 


放 、 六、 
ES > 
Ge a > @CRU 序 列 
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Fig. 3 
中 表示 映射 


层 ， 有 


以 “保证 加 强 板 刚 性 结构 ， 
保证 、 加 强 ? 等 词 分 别 映射 成 word2vec 
词 向 量 和 POS 词性 向 量 。 


,将 


械 冲 击 能 力 ” 为 例 


@ 表 示 GRU 序列 


量 序列 和 POS 词性 向 


二 


E 融 合 WPOS-GRU 结构 
Dual channel feature fusion WPOS-GRU structure 


0 将 摘要 中 的 词 


决 射 成 向 量 的 形式 。 仍 
良好 的 承载 能 力 和 抗 机 


使 其 具 


云 。 


GRU 的 每 一 个 时 
GRU 的 输入 ， 最 


间 步 中 
后 一 层 GRU 节点 只 保留 最 后 一 个 节点 的 输 


出 。 其 中 word2vec 词 向 量 特征 通道 


9» 


向 


O1,POS 词性 向 量 特征 通道 


@@ 表 示 融 合 


将 上 一 层 映 射 后 的 word2vec 词 向 


量 序列 分 别 按照 词 序 输入 到 第 一 层 


耳 


屋 GRU 的 输出 结果 作为 下 一 层 


下 


的 GRU 序列 输出 为 


层 ， 将 word2vec 词 


的 GRU 序列 输出 为 02. 


向 量 通道 深层 GRU 输出 


量 O1 和 POS 词性 特征 


通道 GRU 输出 向 量 02 进行 


接 ， 


拼接 后 
名 表示 全 连 
全 连接 


接 


的 向 量 表示 为 O。 
层 ， 假 设 该 专利 数据 集 共 
层 的 节点 数 为 n， 将 融合 


@) 表 示 softmax 分 类 层 ， 


层 的 输出 


对 上 一 层 的 输出 向 量 进行 规 一 


其 中 每 个 元 素 代表 属于 该 类 别 的 概 


率 。 


化 ， 得 到 新 的 n 维 向 量 


且 ， 


其 模型 训练 过 程 丸 


0 下 : 


多 通道 特征 融合 WPOS-GRU 算法 流程 
输入 : 训练 集 D={Caopkeybjmx=l， 超 参数 : 6。 


初始 化 训练 参数 W 


™ 


词 


yt 为 第 k 篇 文档 的 类 别 向 量 , yx 表示 多 
3.2.2 单 通道 特征 GRU 模型 
单 通 道 特 征 GRU 模型 只 有 一 个 通道 ，word2vec 
4 所 示 。 

即将 


者 


“保证 加 


冲击 能 


在 


比 吕 


向 量 ; 在 POS 单 通道 特 和 


性 标注 向 量 。 


通道 特征 融合 的 WPOS-GRU 专利 分 类 方法 


repeat 
for all (xx,pr,yr) ED do 
1 计算 当前 样本 的 输出 y* 


2 计算 输出 yx 和 样本 标签 


3 根据 EE 计算 各 参数 的 梯 
4 更 新 各 参数 的 值 

end for 

until: 训 练 误 差 收敛 到 一 个 
输出 : 各 训练 参数 确定 的 


向 量 表示 序列 ，pk 表 示 


FP: D 为 m 篇 专利 摘要 训练 集 ， 
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k 
y 的 差 值 EE 
度 


比较 小 的 值 。 
分 类 网 络 。 


区 


POS 通道 结构 如 
@ 表 示 映 射 层 ， 
强 板 刚性 结构 ， 


词 序 步 输入 到 第 一 层 GRU 的 每 一 个 时 
出 结果 作为 下 一 层 GRU 的 输入 , 最 后 一 
留 最 后 一 个 节点 的 输出 。 


输 


”为 例 ， 将 “保证 、 加 强 ” 等 词 映 射 
word2vec 单 通道 特征 GRU 模型 中 , 将 词 映 射 成 word2vec 
E GRU 模型 中 ,将 词 映射 成 POS 词 


商 要 中 的 词 映射 
使 其 具有 


成 癌 量 


@ 表 示 GRU 序列 层 


人 


。 将 上 


刊 


3 期 


xx 表示 第 k 篇 专利 摘要 的 
第 k 篇 文档 的 词性 向 量 表示 序列 ， 
篇 文本 预测 类 别 向 


通道 或 
。 以 


良好 的 承载 能 力 和 抗 机 械 
式 ， 


层 映射 后 的 向 量 序列 按照 
} 间 步 中 , 每 层 GRU 的 


保 强 刚 。 … . 机 冲 能 
证 板 性 械 击 力 
> 四 向 量 映射 
(enu) > GRU ) > se 
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< yy 7 
EE | 
六 图 全 连接 层 
[TITIJ 
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图 4 单 通道 特征 GRU 模型 结构 


Fig.4 Single channel 


characteristic GRU model structure 


层 GRU 节点 只 保 


@ 表 示 全 连接 层 ， 假 设 该 专利 数据 集 共 包含 n 个 类 别 ， 


连接 层 的 节点 数 为 n, 将 GRU 序列 层 的 输出 映射 成 n 引 


E 向 


民 ， 对 上 一 


层 的 输出 向 量 进行 规 


其 中 每 个 元 素 代 表 属 于 该 类 别 和 


全 
本 由 表示 softmaxt 分 类 
化 ， 得 到 新 的 n 维 向 量 ， 
率 。 

其 模型 训练 过 程 如 下 : 


word2vec 单 通道 特 行 
输入 : 训练 集 D={ (xx, yn 
初始 化 训练 参数 W 


E GRU 算法 流程 
}mel， 超 参数 : 6。 


的 概 
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repeat 

for all (xx yr) ED do 

1 计算 当前 样本 的 输出 yx 

2 计算 输出 yx 和 样本 标签 y 的 差 值 

3 根据 E 计算 各 参数 的 梯度 

4 更 新 各 参数 的 值 

end for 

until: 训 练 误差 收敛 到 一 个 比较 小 的 值 。 

输出 : 各 训练 参数 确定 的 分 类 网 络 。 
其 中 : D 为 m 篇 专利 摘要 训练 集 ，xk 表示 第 k 篇 专利 摘要 的 
词 向 量 表示 序列 ，yt 为 第 k 篇 文档 的 类 别 向 量 ，yx 表 示 第 k 
篇 文本 预测 类 别 向 量 。 

POS 单 通道 特征 GRU 算法 流程 

输入 : 训练 集 D={(pke yojmxcl， 超 参数 : 6。 

初始 化 训练 参数 W 

repeat 

for all (pe yr) ED do 

1 计算 当前 样本 的 输出 yx 

2 计算 输出 yx 和 样本 标签 y 的 差 值 

3 根据 E 计算 各 参数 的 梯度 

4 更 新 各 参数 的 值 

end for 

until: 训 练 误差 收敛 到 一 个 比较 小 的 值 。 

输出 : 各 训练 参数 确定 的 分 类 网 络 。 
其 中 : D 为 m 篇 专利 摘要 训练 集 ，xx 表示 第 k 篇 专利 摘要 的 
词性 向 量 序列 ，yk 为 第 k 篇 文档 的 类 别 向 量 , yx 表示 第 k 篇 
文本 预测 类 别 向 量 。 
3.3 ”模型 评价 

为 设计 对 比 实验 ， 评 价 本 文 方法 的 可 行 性 ， 本 文 首先 对 
所 有 摘要 数据 划分 训练 集 和 验证 集 。 使 用 上 述 算 法 完成 模型 
训练 ， 然 后 使 用 精度 、 准 确 率 、 召 回 率 和 Fl 值 来 对 模型 效 
果 进 行 评 价 。 

精度 accuracy 指 的 是 正确 分 类 的 专利 文本 数 了 和 专利 文 
本 总 数 N 的 比值 ， 如 式 〈2) 所 示 。 


accuUracy = 世 (2) 


准确 率 Precision 指 的 是 预测 为 该 类 别 的 专利 文本 中 , 实 
属于 该 类 别 的 比例 ， 如 式 (3) 所 示 ， 其 中 TP 表示 预测 为 
类 别 且 预测 正确 的 文档 数 , FP 表示 预测 为 该 类 别 且 预测 错 
的 文档 数 。 


班 区 哥 


+ ©) 

召回 率 Recall 指 的 是 实际 属于 该 类 别 的 专利 文档 中 ， 被 
预测 出 来 的 比例 ， 如 式 〈4) 所 示 ， 其 中 TP 表示 预测 为 该 类 
别 且 预测 正确 的 文档 数 ，FN 表示 实际 属于 该 类 别 但 预测 错 
误 的 文档 数 。 


precision = 


recall = a (4) 
TP+FN 


Fl 值 同时 兼顾 了 准确 率 和 召回 率 ， 如 式 (5) 所 示 。 


2. precision: recall 


rl (9) 


precision+ recall 


4 ”实验 分 析 

4.1 专利 数据 获取 及 数据 预 处 理 
本 文 在 进行 实验 时 ,选择 了 作者 较为 熟悉 的 计算 机 领域 ， 

参考 文献 [8] 选 择 专利 的 方法 ， 进 行 专利 文本 的 分 类 实验 。 首 


余 本 功 ， 等 : 基于 双 通 道 特征 融合 的 WPOS-GRU 专利 分 类 方法 
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先 在 SooPAR 专利 搜索 引擎 上 选择 中 国 专利 “计算 机 ”主题 ， 
专利 类 型 限定 为 发 明 专利 ， 检 索 出 和 计算 机 相关 的 专利 文本 
的 主 分 类 号 有 G06F1/16、GO06F1/18、G06F1/20、G06F3/02、 
GO06F3/14 五 个 类 别 ， 类 别 粒度 为 小 组 级 别 。 然 后 在 上 海 知识 
产权 上 平台 上 检索 这 五 个 类 别 的 专利 ， 为 保证 时 效 性 ， 选 择 
了 近 4 年 的 专利 数据 , 每 个 类 别 选择 2000 篇 进行 下 载 。 对 下 
载 后 的 专利 数据 进行 筛选 去 重 ， 保 留 专利 摘要 文本 并 分 类 存 
储 。 


tn 


对 摘要 文本 进行 分 词 和 去 停 用 词 处 理 。 本 实验 使 用 jieba 
分 词 工具 ， 该 工具 分 词 效果 较 好 ， 相 关 研 究 中 使 用 较 多 。 
天 word2vec 训练 需要 大 文本 语 料 集 , 所 以 本 文 将 维基 百 
科 文 本 和 专利 文本 进行 组 合 ， 其 中 维基 百科 库 为 网 络 公 开 数 
据 ， 大 小 约 1.3 GB， 专 利 数据 共 10 000 条 。 通过 组 合 ， 既 满 
足 大 文本 语 料 的 要 求 ， 也 包含 了 领域 信息 ， 保 证 了 词 向 量 训 
练 的 效果 。 最 后 使 用 word2vec 模型 将 评论 文本 中 的 词 映 射 成 
100 维 向 量 。 
本 文 词性 标注 使 用 jieba 工具 包 ， 标注 标准 为 中 科 院 计算 
所 的 标注 集 ， 该 标注 集 较 多 全 面 ， 能 为 自然 语言 处 理 相 关 工 
作 提 供 辅 助 ， 在 相关 研究 中 使 用 较 多 。 对 词性 标注 内 容 进行 
onehot 编码 ， 编 码 成 长 度 为 50 的 向 量 ， 如 形容 词 a 标注 为 
[0,0,1,0,0,.….]， 其 中 a 对 应 向 量 中 第 三 个 位 置 。 
4.2 ”模型 训练 

本 文 实验 环境 配置 如 表 1 所 示 。 
表 1 实验 环境 参数 


Table 1 Experimental environmental parameters 


参数 值 
处 理 器 Intel®) Core™ i5-7300 HQ CPU @ 2.50GHz 
内 存 8GB 
显卡 NVIDIA GeForce GTX 1050 
编程 语言 Python 3 
深度 学 习 库 Tensorrflow + Keras 


GRU 循环 神经 网 络 序列 长 度 为 句子 长 度 ，GRU 节点 数 
取 50，100，150 时 取得 较 高 的 Fl 值 ， 由 于 专利 文本 分 类 需 
要 较 高 效率 ， 所 以 本 文 节点 数 定 为 50。 

本 文 将 五 个 类 别 的 10000 专利 文本 划分 训练 集 和 验证 
集 ， 其 中 训练 集 为 8 000 条 ， 验 证 集 为 2 000 条 。 模 型 训练 
过 程 中 ， 使 用 交叉 粒 作 为 损失 函数 ， 使 用 Adam 方法 作为 优 
化 函数 ， 模 型 训练 三 个 epoch 后 收敛 。 

为 验证 本 文 方法 的 有 效 性 ， 分 别 训练 本 文 三 个 模型 ， 并 
设计 对 比 实验 ， 将 本 文 方法 与 专利 分 类 中 常用 的 NB 〈 朴 素 
贝 叶 斯 )、SVM (支持 向 量 机 )、NN (神经 网 络 ) 和 RF〔 随 
机 森林 ) 相对 比 ， 实 验 结果 如 表 2 和 图 5 所 示 。 此 外 ， 为 验 
证 不 同 词性 的 重要 程度 不 同 ， 本 文 使 用 仅 名 词 、 仅 形容 词 、 
仅 动 词 的 词 向 量 训练 word2vec 单 通道 特征 GRU， 得 出 评价 
结果 。 
通过 对 比 实验 可 以 看 出 , 在 传统 机 器 学 习 模 型 中 ,神经 网 
络 表现 最 好 ， 分 类 精度 为 0.92; 本 文 提 取 的 三 种 方法 中 
word2vec 单 通道 特征 GRU 分 类 精度 为 0.95， 相 比 传统 方 ; 
提升 较 大 ， 所 以 将 深度 学 习 方法 应 用 到 专利 分 类 中 是 有 
价值 的 ; 训练 单 通道 特征 GRU， 若 仅 使 用 名 词 训 练 ， 分 类 
度 为 0.91， 使 用 动词 训练 ， 分 类 精度 为 0.81， 而 仅 使 用 天 
词 训 练 ， 分 类 精度 仅 为 0.53, 说 明 不 同 词性 的 词 对 分 类 的 贡 
献 是 不 同 的 ， 名 词 包含 的 信息 量 最 大 ; 此 外 ，pos 单 通道 特 
征 GRU 分 类 精度 为 0.46， 在 五 分 类 实验 中 ， 随 机 值 为 0.2， 
说 明 使 用 词性 特征 包含 了 较 多 的 语义 信息 ， 双 通道 融合 后 模 
型 分 类 精度 在 0.974， 能 够 完成 专利 文本 自动 分 类 任务 。 从 
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Fl 上 看 ， 双 通道 特征 融合 WPOS-GRU 效果 也 较 好 ， 相 比 传 表 2 对 比 实验 结果 
统 方法 和 单 通道 特征 也 有 较 大 提升 。 Table 2 Contrast experiment results 
5 结束 语 acC pre recall fl 
NB 0.8177 0.8238 0.8087 0.8162 
专利 作为 科技 创新 的 一 种 重要 表现 形式 ， 专 利文 本 的 分 SVM 0.8374 0.8453 0.7639 0.8025 
类 ， 对 于 专利 的 分 析 利 用 有 很 重要 的 作用 。 本 文 结合 深度 学 RF 0.9078 0.9631 0.8799 0.9196 
习 技 术 ， 就 大 量 专利 文本 的 自动 高 效 的 分 类 问题 ， 提 出 了 双 NN 0.9225 0.9533 0.9163 0.9345 
通道 特征 融合 WPOS-GRU 专利 自动 分 类 模型 ， 该 模型 通过 pos 0.4664 0.4857 0.6292 0.5482 
引入 词性 语义 信息 ， 提 高 了 专利 文本 自动 分 类 的 准确 度 ， 使 word2vec 0.9501 0.9322 0.9423 0.9372 
得 专利 自动 分 类 结果 更 可 靠 实 用 。 但 本 文 方法 仍 存在 一 些 不 名 词 0.9161 0.9141 0.9101 0.9121 
足 ， 如 一 些 新 生 类 别 下 缺少 专利 文本 数据 ， 本 文 方法 表现 可 动词 0.8365 0.8357 0.8044 0.8198 
能 不 佳 。 区 容 词 0.5778 0.5907 0.4927 0.5373 
WPOS-GRU 0.9740 0.9707 0.9671 0.9689 
全 accuracy MB precision MM recall BW F1 score 
je 
0.8] 
0.64 
0.41 
0.24 
og RS 后 SS SS 海 gD 本 Wp EC 
a i 
图 5 对 比 实验 结果 
Fig. 5 Contrast experiment results4.3 实验 结果 分 析 
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